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随 着 多 媒体 技术 和 网 络 技术 的 发 展 , 视频 已 经 成 为 人 们 日 常生 活 
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摘要 : 随 着 视频 采集 设备 的 普及 以 及 Web2.0 技术 的 HH 
频数 据 中 检索 到 用 户 需要 的 视频 ， 正 是 视频 检索 技术 所 要 解决 的 问题 。 本 文 对 视频 检索 技术 ; 


主要 对 基于 内 容 的 视频 拷贝 检测 技术 ， 基 于 概念 的 语义 视频 检索 技术 ， 以 及 基于 上 下 文 信息 的 网 络 视频 分 


的 主要 载体 之 一 。2009 fF 9 


HIL, 互联 网 上 的 视频 数据 迅猛 增长 。 如 何 从 大 规模 视 


行 了 综述 ， 


析 技 术 进 行 了 介绍 。 同 时 ， 本 文 也 简要 介绍 了 本 课题 组 在 视频 拷贝 检测 ， 语 义 视频 检测 ， 以 及 网 络 视频 分 
析 方 面 的 研究 进展 。 


发 布 信 息 和 获取 信息 


] ， 著 名 视频 分 享 网 站 YouTube 每 分 钟 大 约 有 20 小 时 的 新 视频 


数据 上 传 ; 根据 中 国 互联 网 络 信息 中 心 报告 , 2010 年 中 国 网 络 视频 用 户 规模 达到 2.84 (LA, 
占 网 民 总 数 的 62.1%。 面 对 网 络 视频 及 其 用 户 的 爆炸 式 增 长 , 迫切 需要 高 效 的 视频 检索 技术 ， 


视频 检索 技术 在 不 同 
次 具有 不 同 的 表现 形式 。 如 
下 图 所 示 ， 针 对 技术 人 员 来 
说 ， 视 频 检索 技术 包含 视频 
结构 化 、 特 征 提取 、 高 维 索 
引 、 相似 度 计 算 、 检 索 结果 
排序 等 核心 模块 ， 针 对 服务 
提供 商 来 说 ， 视 频 检索 技术 
根据 应 用 模式 不 同 可 分 为 通 
用 视频 检索 、 特 定 视频 检索 
以 及 视频 主动 推荐 ， 而 针对 
终端 用 户 来 说 ， 视 频 检 索 技 


UEA 


MU 


术 根据 查询 输入 的 不 同 可 分 为 基于 文本 关键 词 、 中 


要 查询 的 视频 主动 推荐 技术 。 


帮助 人 们 在 大 规模 网 络 视频 数据 ! 


用 户 层 
we 人 基于 文本 的 
SRI | 通用 视频 检索 
技术 层 


图 1. 


基于 内 容 的 
特定 视频 检索 


快速 、 准 确 地 找到 所 需要 的 视频 内 容 。 


基于 上 下 文 的 
视频 推荐 

TRIAIE || 排序 
计算 JL 算法 


视频 检索 技术 


视频 结 || 特征 || AER 
构 化 儿 提取 


高 维 索 


引 技 术 


视频 检索 技术 在 不 同 层次 的 表现 形式 
导语 义 概念 和 视频 样 例 的 检索 ， 以 及 不 需 


现 有 的 商业 化 视频 搜索 引擎 ， 如 百度 ，Google Video, Blinkx 等 主要 依赖 文本 检索 技术 ， 
通过 从 视频 元 数据 中 提取 视频 标题 、 描 述 、 标 签 、 


文本 的 视频 检索 ,用户 查询 入 


为 文本 关键 词 。 这 类 方法 在 视频 文本 缺失 (如 家 庭 视频 等 )， 


以 及 视频 文本 不 能 准确 描述 视频 内 容 〈 如 文本 标签 错误 ) 时 ， 检 索性 能 大 大 降低 。 
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因此 ， 从 90 年 代 开 始 ， 基于 内 容 的 视频 检索 (Content-Based Video Retrieval, CBVR) 技 术 
应 运 而 生 中 IP。 这 类 方法 直接 从 视频 本 身 提取 底层 视觉 特征 进行 索引 和 相似 度 计 算 ， 支 持 
用 户 基于 示例 的 检索 (Example-based retrieval) 和 基于 草图 的 检索 (Sketch-based retrieval). H 


视频 检索 技术 一 从 内 容 到 上 下 文 


前 , 基于 内 容 的 视频 检索 方法 还 无 法 应 用 于 通用 视频 检索 , 仅 在 一 些小 型 的 实验 系统 中 使 用 ， 
W: IBM 开发 的 QBIC 检索 系统 外、 意大利 帕 勒 莫大 学 (Universita degli Studi di Palermo) 开 发 
的 JACOB 系统 申 、 美 国 哥 伦比 亚 大 学 开发 的 VideoQ 视频 查询 系统 四 和 网 络 视频 搜索 引擎 
WEDSEEK" 等。 值得 注意 的 是 ， 在 某 些 特定 领域 ， 基 于 内 容 的 视频 检索 已 体现 出 重要 的 应 
用 价值 ， 如 版 权 保 护 中 非法 拷贝 视频 检测 、 大 规模 网 络 视 频 中 的 重复 视频 检测 、 监 控 视频 中 
的 特定 语义 事件 检测 等 。 以 视频 拷贝 检测 技术 为 例 ， 由 于 其 具有 重要 的 应 用 需求 和 价值 ， 由 
美国 国家 信息 标准 协会 举办 的 国际 视频 检索 评测 (TRECVID) U?! 从 2008 年 开始 ， 设 立 了 
页 “视频 拷贝 检测 评测 ”任务 。 通 过 逐年 的 评测 ， 目 前 该 领域 已 取得 突破 性 的 进展 5 


基于 内 容 的 视频 检索 面临 的 本 质问 题 是 “语义 鸿沟 ”(Semantic Gap )。 斯 称 德 斯 
(Smeulders) 等 门将 该 问题 定义 为 “机 器 从 视频 中 提取 的 底层 特征 和 用 户 所 理解 的 高 层 语义 
之 间 缺 少 一 一 对 应 关系 ”。 为 了 缩小 语义 鸿沟 ， 近 年 来 ， 多 媒体 领域 出 现 了 一 个 非常 有 前 景 
的 研究 方向 一 一 基于 概念 的 视频 检索 [0 。 这 类 方法 在 视频 底层 特征 描述 与 用 户 语义 查 
询 之 间 引 入 一 个 中 间 语 义 概念 层 , 包含 的 概念 具有 一 定语 义 , 同时 又 可 以 基于 底层 特征 训练 
概念 检测 器 ， 通 过 机 器 自动 识别 ， 如: 物体 对 象 类 概念 (人 、 飞 机 、 山 、 路 、 船 、 建 筑 物 等 )， 
场景 类 概念 (室内 /室外 、 水 景 、 雪 景 、 沙 漠 等 )， 事 件 类 概念 (起 飞 、 运 动 、 行 走 ) 等 。 通 
过 分 别 建立 从 低层 特征 到 语义 概念 ( 即 语义 概念 检测 ) 和 从 用 户 查 询 到 语义 概念 〈 即 查询 分 
析 ) 的 两 层 映 射 ， 最 终 实 现 基于 概念 的 语义 视频 检索 。 从 TRECVID 近 三 年 的 评测 结果 可 以 
发 现 ， 该 方法 的 性 能 远 远 高 于 单纯 基于 文本 或 者 视觉 的 视频 检索 方法 。 


近 些 年 , 随 着 Web2.0 技术 的 发 展 , 大 部 分 视频 数据 主要 通过 网 络 平台 进行 存储 和 传播 ， 
如 YouTube、 土 豆 网 、 优 酷 网 等 。 这些 平台 为 视频 数据 提供 了 一 个 可 供用 户 交 流 的 网 络 环境 
(社会 网 络 ，social network!)。 除 了 视频 本 身 的 相关 性 之 外 ， 丰 富 的 上 下 文 信息 也 为 视频 之 
间 建 立 了 连接 ， 如 : 同一 个 作者 上 传 的 视频 之 间 具 有 一 定 相似 性 ， 而 被 同一 个 用 户 评论 过 的 
视频 之 间 也 具有 一 定 关联 。 杰 恩 CR. Jain)09 和 新 辛 (音译 ，X. Jin EE ACM Multimedia 
2010 “brave new idea” 中 强烈 呼吁 大 家 使 用 上 下 文 信息 进行 多 媒体 内 容 分 析 。 首 先 ， 不 考虑 
上 下 文 的 内 容 是 没有 意义 的 9， 如 不 同 用 户 对 同一 个 视频 会 有 不 同 的 理解 和 标注 ， 即 使 是 
同一 个 用 户 ， 在 不 同 的 时 间 段 对 同一 个 视频 的 理解 也 是 不 同 的 。 其 次 ， 丰富 的 上 下 文 信息 对 
于 克服 网 络 多 媒体 数据 特征 稀 琉 、 噪 声 大 等 问题 具有 重要 的 现实 意义 。 因 此 ， 近 两 年 来 ， 上 
下 文 信息 逐 渐 受 到 多 媒体 研究 人 员 的 关注 ， 并 在 图 像 推 荐 和 预测 WI、 视 频 分 类 PRI、 视频 
话题 发 现 中 57 等 领域 出 现 了 一 些 尝 试 性 的 工作 。 


综 上 所 述 ， 视 频 检索 技术 的 发 展 经 历 了 一 个 从 文本 、 视 觉 内 容 、 语 义 概念 ， 到 上 下 文 信 
县 的 发 展 过 程 。 由 于 基于 文本 的 视频 检索 主要 采用 已 有 的 文本 信息 检索 技术 ,因此 本 文 不 再 
介绍 。 在 后 续 章 节 ， 本 文 将 分 别 以 基于 内 容 的 视频 拷贝 检测 技术 、 基 于 概念 的 视频 检索 技术 
以 及 基于 上 下 文 的 视频 话题 挖 据 和 推荐 技术 为 例 ， 对 视频 检索 研究 现状 进行 介绍 。 最后， 本 
文 也 对 本 课题 组 在 相关 研究 上 所 取得 的 进展 进行 了 简要 介绍 。 


2 ”基于 内 容 的 视频 拷贝 检测 技术 


美国 国家 标准 局 将 视频 拷贝 定义 为 ; 一 个 视频 或 者 其 片段 在 经 过 某 些 编辑 处 理 后 ， 得 到 
的 内 容 相 同 但 视觉 外 观 (如 亮度 ) 不 完全 一 致 的 同 源 视 频 版 本 哺 。 视 频 拷 贝 检测 Copy 
Detection) 即 指 通 过 将 查询 视频 的 内 容 特 征 与 库 中 视频 做 匹配 ,判断 此 查询 视频 是 否 是 库 中 
某 个 源 视频 的 拷贝 。 不同 于 视频 检索 , 被 拷贝 的 视频 在 源 视频 的 基础 上 进行 了 各 种 几何 和 图 


| 


! 亦 有 译作 “社交 网 络 ” 或 “社区 网 络 ” 
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像 变换 ， 使 得 视频 在 视觉 上 发 生 了 不 同 程度 改变 ， 称 为 拷贝 攻击 5 。 


码 方式 转换 、 画 面 尺 寸 变化 、 画 面 比例 变化 、 添 加 边框 等 。 
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第 见 的 拷贝 攻击 有 纺 


根据 使 用 特征 的 不 同 ， 已 有 基于 内 容 的 拷贝 检测 方法 可 以 分 为 三 大 类 [9: 基于 数字 签 


名 的 方法 ， 基 于 关键 帧 的 方法 ， 以 及 基于 轨迹 的 方法 。 


基于 数字 签名 的 方法 通常 将 整个 视频 内 容 表 示 为 一 个 全 局 的 特征 值 , 从 
快速 匹配 。 如 将 视频 里 所 有 帧 的 颜色 直方 图 中 ， 排 序 特 征 扑 等 ， 进 行 平均 。 


às 


明 ， 这 类 方法 只 对 较 小 的 拷贝 攻击 有 
对 整个 视频 的 拷贝 ， 无 法 识别 部 分 片段 的 拷贝 。 


基于 关键 帧 的 方法 从 视频 中 抽样 出 具有 代表 性 的 的 帧 进行 匹配 ,其 


效 。 而 且 由 于 忽略 了 视频 的 时 序 信息 ， 


而 进行 视频 级 的 
文献 [51] 已 经 证 


因此 只 能 检测 针 


核心 算法 是 如 何 对 


两 个 不 等 长 的 关键 帧 序列 进行 匹配 。 如 邢 志 义 〈C.Y_ Chiu ) 等 在 文献 [54] 中 使 用 动态 规划 
算法 选取 最 长 的 匹配 序列 ， 吴 晓 CX. Wu) 等 在 文献 [24] 中 采用 滑动 窗口 的 方法 进行 关键 帧 
序列 匹配 ， 陈 汉 勤 (音译 ，Hung-Khoon Tan) 等 在 文献 [5$] 中 将 帧 之 间 的 时 序 关系 表示 成 一 
个 有 问 边 的 时 序 网 络 (Temporal Network)， 在 帧 级 匹配 的 结果 上 ， 基 于 时 序 网 络 进行 视觉 - 


时 序 一 致 性 验证 , 准 


检测 和 定位 视频 拷贝 片段 。 这 类 方法 利用 的 时 序 关系 对 视觉 变化 有 一 


定 的 鲁 棒 性 ， 但 对 时 域 的 变化 ， 如 前 后 片段 调换 ， 帧 率 改变 和 琉 失 帧 等 非常 敏感 。 


基于 轨迹 的 方法 通过 跟踪 兴趣 点 在 视频 序列 中 的 变化 , 形成 具有 时 - 空 (spatio-temporal) 


信息 的 轨迹 特征 。 如 J. Law-To 等 在 文献 [53] 中 利用 轨迹 特征 标注 不 同 的 运动 行为 ， 匡 晓 等 


人 在 文献 [9] 中 采用 轨迹 词 袋 的 方法 解决 不 连续 的 时 序 模式 问题 。 轨 迹 特 生 


E 同 时 考虑 了 兴 


点 在 空间 和 时 序 上 变化 , 对 复杂 的 找 贝 攻击 具有 重 棒 性 , 但 由 于 提取 兴趣 点 和 轨迹 非常 耗 时 ， 


所 以 这 类 方法 的 时 间 复 杂 度 比较 高 。 


3 ”基于 概念 的 语义 视频 检索 技术 


选取 多 少 个 概念 ,以 及 选取 哪些 概念 构建 语义 空间 ; 二 是 建立 从 低 


基于 概念 的 视频 检索 框架 如 图 2 Bros. 包含 三 个 关键 步骤 : 一 是 语义 概念 集 的 建立 ， 即 


层 特 征 到 语义 概念 的 映射 


关系 ， 即 语义 概念 检测 ; 三 是 建立 用 户 碍 询 到 语义 概念 的 映射 关系 ， 即 查询 分 析 。 下 面 我 们 


将 分 别 介绍 这 三 个 方面 的 研究 现状 。 


概念 的 映射 


高 层 语 义 表示 


- 


念 检测 


视频 底层 特征 描述 


图 2.。 基于 概念 的 视频 检索 框架 


-第 3 步 : 查询 到 


第 1 步 : 语义 概 
念 词典 的 构建 


一 第 2 步 : 语义 概 


视频 检索 技术 一 从 内 容 到 上 下 文 


3.1 语义 概念 集 构建 


基于 概念 的 视频 检索 第 一 步 就 是 定义 一 个 合适 的 语义 概念 集 。 目 前 被 广泛 认可 的 概念 集 
包括 LSCOM (Large-Scale Concept Ontology for Multimedia)" ^ WI Mediamill-1010531。LSCOM 
是 由 美国 IBM 沃 森 研究 中 心 、 卡 内 基 . 梅 隆 大 学 CCMU ) 和 哥伦比亚 大 学 联合 开发 ， 包 含 
2000 个 语义 概念 的 定义 ， 并 在 TRECVID 2005 视频 集 上 对 449 个 概念 进行 了 人 工 标注 ， 为 
多 媒体 检索 方法 的 研究 提供 了 重要 数据 集 。 在 LSCOM 的 基础 上 ， 研 究 者 进一步 精 选 了 44 
个 概念 ,构成 LSCOM-lite 词典 。 将 语义 空间 划分 成 七 个 相互 正 交 的 子 空间 : 对 象 Cobjects ), 
行为 (activities), F (events)、 场 景 (scenes/locations)、 人 物 (people)、 图 表 (graphics) 
和 节目 (program)， 并 根据 查询 中 概念 单词 的 使 用 情况 为 每 个 子 空间 选择 合适 的 概念 。 
Mediamill-101 是 由 阿姆斯特丹 大 学 开发 ， 并 在 TRECVID2005 的 视频 数据 集 上 进行 了 人 工 
标注 。 

基于 这 些 语 义 概 念 词典 ， 美 国 卡 内 基 . 梅 隆 大 学 ZeXPTRE CA. Hauptmann) 等 对 语义 概 
念 集 的 构建 进行 了 一 系列 基础 性 的 研究 中 ， 得 到 一 个 重要 结论 当 概 念 集 的 规模 在 5000 Ze 
右 ， 每 个 概念 的 检测 精度 不 低 于 10% 的 情况 下 ， 基 于 概念 的 视频 检索 可 以 达到 与 文本 检索 
相当 的 效果 (MAP2=65%)。 该 结论 为 后 续 基 于 语义 概念 的 视频 检索 技术 发 展商 定 了 基础 。 
2008 年 ， 美 国 德 克 萨 斯 大 学 的 卢 亦 娟 (音译 ，Y. j. Lu) 等 上 进 一 步 提出 : 不 同 的 概念 ， 具 
有 不 同 大 小 的 语义 鸿沟 。 如 概念 “Sunset” 很 容易 用 视觉 特征 来 描述 ， 语 义 鸿沟 较 小 ， 而 
“Europe” 很 难 用 简单 的 视觉 特征 描述 ， 具 有 很 大 的 语义 鸿沟 。 语 义 鸿沟 较 小 的 概念 相对 容 
易 通 过 底层 特征 实现 机 器 自动 检测 ， 适 合 构 造 语义 概念 词典 。 基 于 以 上 理论 ， 他 们 首次 提出 
对 语义 鸿沟 进行 量化 ， 从 而 自动 选择 语义 鸿沟 最 小 的 概念 构建 语义 概念 集 。 这 种 方法 无 需 人 
工 干预 ， 具 有 很 强 的 操作 性 


这 些 大 规模 的 、 标 准 的 、 带 标注 数据 的 语义 概念 集 的 建立 以 及 构建 理论 的 不 断 完善 ， 对 
于 提高 视频 检索 精度 ， 规 范 视频 检索 评测 具有 重要 意义 。 


3.2 语义 概念 检测 


对 于 上 述 定义 的 每 一 个 概念 , 需要 通过 机 器 学 习 的 方法 从 已 标注 的 正 负 样 本 中 学 习 来 建 
立 概念 检测 器 。 在 过 去 的 十 年 ， 针 对 视频 /图 像 的 语义 概念 检测 得 到 了 广泛 的 研究 由。 其 核 
心 模块 包括 : 视频 底层 特征 提取 、 学 习 模 型 以 及 多 模 态 的 特征 融合 。 


首先 ， 有 效 的 特征 表示 是 概念 检测 成 功 的 关键 。 颜 色 《〈 如 颜色 直方 图 、 颜 色 矩 ) 和 纹理 
特征 (如 小 波纹 理 等 ) 是 计算 机 视觉 里 被 普遍 使 用 的 两 类 视觉 特征 。 与 这 些 描述 视频 /图 像 
整体 分 布 特性 的 全 局 特征 相 比 ， 局 部 特征 对 图 像 的 几何 和 光照 变化 等 具有 重 棒 性 ， 近 年 来 ， 
在 很 多 视觉 分 类 任务 中 显示 了 突出 的 效果 。 局 部 特征 的 提取 包括 局 部 特征 点 检测 与 描述 两 部 
分 。 目 前 被 广泛 采用 的 特征 点 检测 方法 包括 哈里 斯 (Harris) 角 点 检测 算法 E0 和 高 斯 差分 
(difference of gaussian, DoG) 的 局 部 特征 检测 方法 加 等 ， 描 述 方法 如 罗 伊 (Lowe) 提出 
的 尺度 不 变 特征 转换 CScale-invariant feature transform, SIFT) 局 部 特征 描述 子 记 |。 关于 局 
部 特征 点 检测 和 描述 的 详细 综述 可 见 文 献 [31] 和 [32]。 由 于 每 幅 图 像 提取 的 局 部 特征 点 数量 
庞大 ， 所 以 不 能 直接 用 来 描述 视觉 内 容 。 典 型 的 局 部 特征 使 用 方法 是 视觉 词典 C visual 
vocabulary)。 首 先 将 局 部 特征 点 聚 类 成 视觉 词 (visual word)， 从 而 产生 视觉 词典 。 其 次 ， 
将 每 个 图 像 的 局 部 特征 点 映射 到 视觉 词典 ， 得 到 每 个 图 像 的 视觉 词 向 量 表 示 
(bag-of-visual-words, BoW) P?l, 


o 


> Mean Average Precision， 系 统 平均 准确 率 
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基于 上 述 特征 ,可 以 为 每 个 概念 通过 学 习 建立 分 类 器 。 目 前 在 概念 检测 任务 中 广泛 使 用 
的 Hien d (Support Vector Machine) P4, EREA NEG EE (Gaussian 
mixture models) B53， 隐 马尔 可 夫 模 型 (Hidden Markov models) B9 等 。 上 述 方法 都 是 针对 单 
个 语义 概念 建立 模型 。 但 视频 中 语义 概念 并 不 独立 存在 , 不 同 的 语义 概念 之 间 往 往 存在 一 些 
EFX (Context) 约束 或 者 共 现 (Co-occurrence) 关 系 。 比 如 检测 到 “天 空 ” 和 “绿地 ”会 增 
加 检测 到 “风景 ”的 概率 ， 而 减少 检测 到 “室内 ”的 概率 。 因 此 ， 还 需要 研究 利用 不 同 概念 
之 间 的 相互 关系 , 增强 或 排除 一 些 概念 。 针 对 这 一 现象 有 学 者 提出 了 基于 多 概念 的 视频 语义 
表示 方法 。 比 较 有 代表 性 的 方法 包括 : 豪 普 特 曼 等 2 提出 的 通过 对 数 回归 获取 概念 间 关 系 、 
进行 多 概念 融合 的 方法 ， 以 及 清华 大 学 在 TRECVID2007 中 提出 的 基于 贝 叶 斯 - 狄 里 克利 度 
(Bayesian Dirichelet Metric) 和 神经 网 络 的 方法 BI 等 。 


多 模 态 融合 方法 包括 前 融合 和 后 融合 。 前 融合 是 指 将 各 种 特征 组 合成 一 个 长 的 特征 向 
量 ， 基 于 该 向 量 训练 一 个 概念 检测 器 ;而 后 融合 是 指 为 每 个 特征 训练 一 个 概念 检测 器 ， 通 过 
融合 每 个 检测 器 的 输出 结果 作为 最 终 的 检测 结果 。 两 者 各 有 利弊 。 前 者 隐 含 地 考虑 了 不 同 特 
征 之 间 的 互补 关系 ， 然 而 需要 面 对 高 维特 征 处 理 的 问题 ; 后 者 相对 容易 实现 ， 并 被 很 多 概念 
检测 系统 采用 ， 但 如 何 对 多 个 检测 器 进行 加 权 是 关键 。 斯 诺 克 Snoek) 等 F 对 这 两 种 融合 
方法 进行 了 分 析 比 较 ， 并 提出 了 一 个 自 适应 的 多 模 态 特征 选择 算法 。 


3.3 概念 映射 


基于 上 述 方 法 为 每 个 语义 概念 构建 分 类 器 后 ， 通 过 将 用 户 查 询 映射 到 相关 的 概念 检测 
器 ， 则 可 以 实现 基于 概念 的 视频 检索 。 根 据 使 用 的 特征 不 同 ， 这 种 检索 可 以 分 为 : 基于 文本 
特征 的 映射 、 基 于 视觉 内 容 的 映射 和 基于 反馈 结果 的 映射 。 


于 文本 是 对 视频 语义 内 容 最 直接 的 描述 , 所 以 目前 大 部 分 系统 都 采用 文本 特征 将 查询 
映射 到 语义 概念 E21。 一 种 方法 是 基于 知识 本 体 的 概念 映射 ， 如 WordNet 5$, aut 
diens deca edi e eA 如 上 位 关系 、 下 位 关系 、 同 义 词 关系 等 ， 以 及 词 之 间 的 
语义 相似 度 度 量 算法 ， 如 : RESMI, Lesk”, WUP, JCN“ NATRIE RI oss 77 3 
等 。 基 于 这 些 度量 方法 ， 可 以 实现 查询 关键 词 到 语义 概念 之 间 的 映射 。 另 一 种 是 数据 驱动 的 
概念 映射 。 这 类 方法 通过 统计 模型 ， 如 潜在 语义 分 析 (Latent Semantic Indexing) [9 等 ， 分 
析 数 据 库 中 各 个 词 项 之 间 的 共 现 情况 ， 从 而 自动 挖掘 词 项 之 间 的 相关 性 。 


除 查 询 文本 外 , 有 了 时 查询 会 以 图 像样 例 或 者 视频 片段 等 视觉 形式 给 出 。 因 此 基于 这 些 视 
觉 内 容 也 可 以 完成 查询 到 概念 之 间 的 映射 。 其 一 般 流程 是 : 将 上 一 节 介 绍 的 概念 检测 器 对 查 
询 样 例 进行 对 应 的 概念 检测 ， 然 后 直接 选择 后 验 概率 较 高 的 概念 作为 该 查询 的 概念 映射 结 
果 5。 由 于 这 类 方法 对 概念 检测 器 的 检测 精度 非常 敏感 ， 一 旦 检测 器 对 查询 样 例 判别 错误 ， 
则 直接 导致 概念 映射 错误 ， 因 此 ， 研 究 者 们 提出 把 这 些 带 有 噪声 的 概念 检测 结果 作为 特征 ， 
在 此 基础 上 进行 进一步 的 统计 分 析 [61] 或 者 机 器 学 习 5， 得 到 更 稳定 的 概念 映射 结果 。 


与 基于 整个 数据 集 的 统计 分 析 相 比 , 研究 人 员 认 为 , 在 与 查询 相关 的 一 个 特定 子 集 中 统 
ps 与 概念 之 间 的 相关 性 更 具有 价值 。 通 常 这 个 与 查询 相关 的 特定 子 集 需 要 用 户 标注 

， 称 为 相关 反馈 (Relevance Feedback)。 该 方法 在 用 户 标 注 的 集合 中 提取 特征 ， 用 上 述 基 
EUN 正 的 方法 , 或 基于 视觉 特征 的 方法 , 将 查询 映射 到 语义 概念 。 为 了 减少 用 户 的 参与 ， 
有 些 系统 简化 标注 环节 ， 默 认 初 始 检索 结果 中 前 N 个 结果 为 正 样本 ， 最 后 M 个 结果 为 负 样 
本 ， 称 为 伪 相 关 反 馈 (Pseudo-Relevance Feedback)。 由 于 伪 相 关 反 馈 方 法 依赖 初始 的 检索 结 
果 ， 所 以 ， 在 初始 结果 很 差 的 情况 ， 伪 相关 反馈 方法 会 降低 检索 性 能 0 。 


视频 检索 技术 一 从 内 容 到 上 下 文 


4 ”基于 上 下 文 的 网 络 视频 分 析 技 术 


上 下 文 是 指 某 个 对 象 存在 或 发 生 所 依赖 的 条 件 和 环境 59。 只 有 考虑 上 下 文 信息 ， 才 能 
正确 理解 视频 包含 的 语义 内 容 ， 有 效 缩小 语义 鸿沟 ; 同时 ， 上 下 文 信息 可 以 有 效 地 缩小 检索 
空间 , 提高 检索 性 能 。 如 一 个 在 澳大利亚 拍摄 的 视频 , 不 太 可 能 出 现 雪景 。 其 体 到 网 络 视频 ， 
我 们 可 将 其 分 为 以 视频 为 中 心 的 上 下 文 , 包括 视频 属性 , 如 长 度 、 类 别 等 ; 拍摄 设备 的 参数 ， 
如 摄像 机 型 号 、 分 辩 率 等 ， 拍摄 环境 ， 如 拍摄 地 点 、 时 间 等 ， 以 及 以 用 户 为 中 心 的 上 下 文 ， 
如 用 户 对 视频 的 标注 、 评 论 、 收 藏 等 网 络 行为 所 产生 的 社会 网 络 。 下 面 我 们 将 分 别 介绍 两 类 
上 下 文 信息 在 网 络 视 频 内 容 分 析 中 的 研究 现状 。 


杰 恩 等 09 采 用 照相 机 的 EXIF; 参 数 进行 图 像 分 类 , 得 到 了 比 基 于 内 容 更 好 的 效果 。 吴 晓 
等 人 P 通 过 考虑 视频 的 时 间 长 度 信息 提高 近似 视频 检测 的 准确 率 。 随 着 GPS 设备 的 普及 ， 
视频 地 理 信息 的 价值 不 断 被 发 现 。 文 献 [19] 和 [26] 分 别提 出 了 一 个 GeoFolk 的 框架 ， 以 及 一 
个 潜在 地 理性 话题 分 析 (Latent Geographical Topic Analysis, LGTA) 方法 ， 基 于 视频 的 地 
理 信息 发 现 具有 地 域 性 的 视频 话题 , 用 于 比较 同一 个 话题 在 不 同 地 区 的 发 展 ， 以 及 不 同 地 区 
的 热点 话题 对 比 等 。 


另 一 方面 ， 网 络 用 户 行为 所 产生 的 上 下 文 信息 包含 丰富 的 统计 知识 中 。 林 维 奴 托 
(Benevenuto) 等 户 对 YouTube 用 户 的 视频 回复 行为 进行 深入 分 析 , 得 到 了 多 个 有 价值 的 统 
计 模 型 ， 可 用 于 后 续 网 络 视 频 分 析 ; 罗 劳 夫 (Roelof) 等 5 根据 用 户 的 订阅 行为 预测 每 个 用 
户 最 喜爱 的 照片 ， 在 Flicker 获取 的 数据 集 上 的 实验 显示 ， 基 于 上 下 文 信息 的 平均 预测 精度 
(92%) 分 别 高 于 文本 《87%) 和 视觉 〈88%); 吴 晓 等 基于 YouTube 网 站 提供 的 相关 视频 
的 类 别 信息 进行 投票 ， 实 现 视频 自动 分 类 ; 苟 良 CL. Gou) 等 扬 ] 提 出 了 一 种 社会 网 络 文本 排 
序 算法 (Social Network Document Rank, SNDorRank) , 通过 计算 查询 用 户 的 网 络 与 视频 作 
者 的 网 络 之 间 的 相关 性 ， 对 视频 检索 结果 进行 排序 ， 实 现 更 贴近 用 户 兴 趣 的 视频 检索 。 


5 ”我 们 的 工作 


近 三 年 来 ， 本 课题 组 在 视频 内 容 分 析 研 究 方面 取得 了 很 多 进展 ， 并 开发 了 多 个 系统 。 本 
= 节 将 重点 介绍 我 们 在 大 规模 网 络 视 频 拷贝 检测 、 基 于 概念 的 网 络 视 频 检索 以 及 基于 上 下 文 的 
v 网 络 视频 话题 发 现 与 检索 三 个 方面 的 研究 进展 和 开发 的 相关 系统 。 

5.1 大 规模 网 络 视频 拷贝 检测 系统 

在 视频 拷贝 检测 方面 , 我 们 以 提高 检测 精度 与 检测 效率 为 目标 , 提出 了 多 种 基于 单 帧 的 
和 基于 视频 的 拷贝 检测 特征 ， 并 尝试 通过 高 维 索 引 技 术 ，GPU 加 速 等 技术 来 提高 检索 效率 。 
开发 的 视频 拷贝 检测 系统 分 别 在 2008 年 和 2009 年 视频 检索 国际 评测 CTRECVIDO 的 视频 
拷贝 检测 项 目 中 ， 分 别 获得 总 成 绩 第 三 名 和 第 一 名 的 好 成 绩 [9。 
5.1.1 面向 复杂 攻击 的 鲁 棒 视 觉 特征 挖掘 方法 

各 种 复杂 的 视频 拷贝 攻击 对 视觉 特征 提出 了 苛刻 的 要 求 。 我 们 提出 了 融合 样 例 自 动 扩 展 
与 稳定 特征 挖掘 的 高 鲁 棒 性 视觉 特征 提取 理论 与 方法 [ 吧 该 方法 引入 全 仿 射 空 间 概念 ， 通 过 
自动 模拟 不 同 视角 下 的 图 像 仿 射 形变 情况 , 将 原 有 特征 扩展 到 图 像 在 不 同 仿 射 条 件 下 检测 到 


? Exchangeable image file format， 可 交换 图 像 文 件 格式 。 实 际 上 EXIF 格式 就 是 在 JPEG 格式 头 部 插入 了 数 
码 照 片 的 信息 , 包括 : 拍摄 时 的 光圈 、 快 门 、 白 平衡 、 ISO、 焦 距 、 日 期 时 间 等 各 种 拍摄 条 件 以 及 相机 品牌 、 
型 号 、 色 彩 编码 、 拍 摄 时 录制 的 声音 和 全 球 定 位 系统 (GPS)、 缩 略图 等 。 
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的 局 部 特征 集合 。 其 次 ,为 了 从 这 些 大 量 的 扩展 信息 中 找到 最 具 稳定 性 的 代表 性 特征 ， 我 们 
采用 基于 全 局 稳定 度 的 稳定 特征 挖掘 方法 来 得 到 各 图 像 中 所 有 具有 高 鲁 棒 性 的 局 部 特征 集 
合 ， 以 仅 占 扩 展 信 息 5% 的 特征 作为 图 像 在 各 种 复杂 攻击 方式 下 的 视觉 信息 表征 。 


与 普通 的 图 片 /视频 检索 不 同 ， 找 贝 图 片 /视频 都 是 经 过 拷贝 攻击 处 理 的 ， 如 何 度量 这 种 
m uu a lala i el i 
一 种 基于 匹配 对 的 几何 一 致 性 度量 方法 59。 与 传统 的 直接 计算 两 个 匹配 到 的 关键 点 之 间 的 
相似 度 不 同 ， 该 方法 通过 计算 两 两 匹配 对 的 几何 变换 之 间 的 相似 性 ， 来 度量 两 幅 图 像 之 问 的 
几何 一 致 性 。 具 有 相似 变换 的 匹配 对 越 多 ,说 明 两 幅 图 像 越 有 可 能 是 找 贝 。 这 个 方法 的 优势 
是 既 能 处 理 全 局 的 拷贝 攻击 ， 如 缩放 ， 旋 转 ， 位 移 等 ， 也 能 处 理 局 部 变换 ， 以 及 一 定 程度 的 
视角 扭曲 。 其 次 ， 能 同时 处 理 一 幅 图 像 中 存在 的 多 种 视觉 模式 变换 。 


5.1.2 面向 高 速 匹 配 的 高 维特 征 索引 技术 


由 于 局 部 特征 的 个 数 和 维 数 都 远 远 超 出 了 传统 匹配 方法 的 应 对 能 力 , 因此 为 特征 建立 有 

效 的 高 维 索引 是 实现 大 规模 网 络 视频 拷贝 检测 的 必要 环节 。 我 们 提出 了 一 种 面向 非 均匀 数据 
j= 分 布 的 局 部 敏感 哈 希 (Locality Sensitive Hashing, LSH ARII IE, OTA BAY 
a 布 信息 来 选择 投影 向 量 ， 即 通过 非 监督 学 习 的 方法 获得 投影 向 量 。 同 时 ， 为 了 直观 地 分 析 哈 
希 函 数 的 性 能 , BAL EE TBH OD AR EAT o HELGE VE f AH 2) a AR REBEL REI s 8 BRI BI 
这 样 产生 的 哈 希 函数 , 在 尽量 保留 原始 数据 近邻 关系 的 情况 下 ,使 得 各 哈 希 表 项 索引 的 数据 
更 均匀 。 通 过 在 著名 的 开放 数据 库 上 进行 验证 可 以 看 出 ,在 相同 精度 下 ,我 们 的 索引 算法 比 
原始 的 LSH 算法 减 小 了 30% 的 内 存 消耗 。 同 时 ， 在 使 用 相同 个 数 的 哈 希 表 时 ， 查 询 精度 和 
效率 都 有 提高 。 


5.2 基于 概念 的 语义 视频 检索 系统 


本 课题 组 从 2007 年 开始 , 一 直 从 事 基于 概念 的 通用 视频 检索 研究 ， 并 取得 了 重要 成 果 。 
我 们 研发 的 基于 隐 含 语义 概念 的 视频 检索 系统 在 国际 视频 检索 评测 (TRECVID) 中 ,分别 获得 
2007 年 自动 检索 任务 第 二 名 路，2008 年 第 一 名 外， 以 及 2009 年 交互 式 检索 任务 第 二 名 [9]。 
下 面 将 对 两 个 概念 选择 算法 ， 以 及 两 个 隐 含 语义 与 显 性 语义 融合 算法 进行 介绍 。 


5.2.1 多 模 态 的 概念 选择 方法 


Q 除了 考虑 查询 与 概念 之 间 的 语义 相似 性 外 ， 不 同 概念 在 检索 中 扮演 着 不 同 的 角色 。 例 
如 ， 对 于 查询 “Find shots of one or more people at a table or desk, with a computer visible."2K 
说 ， 虽 然 概 念 “Face” 和 “了 Person” 与 查询 很 相关 ， 但 由 于 这 两 个 概念 在 正 负 样 本 中 的 分 布 
很 类 似 ， 所 以 对 于 正 负 样本 没有 区 分 能 力 ;， 男 一 方面 ， 概 念 “Computer” 和 “Hand” 和 查 
询 很 相关 ， 且 有 具有 很 强 的 区 分 能 力 , 但 由 于 这 两 个 概念 的 机 器 自动 检测 精度 很 低 ， 因 此 对 于 
检索 贡献 不 大 。 基 于 上 述 分 析 ， 我 们 提出 了 一 种 基于 分 布 的 概念 选择 方法 (Distribution 
Based * Concept Selection, DBCS) [61。 通 过 融合 概念 检测 器 的 可 信 度 ， 以 及 概念 分 布 在 相 
关 集 和 不 相关 集中 的 可 区 分 性 来 选择 最 有 价值 的 概念 进行 查询 。 


为 了 考虑 查询 文本 描述 不 完整 的 问题 , 在 此 基础 上 , 我 们 进一步 提出 了 一 种 基于 多 模 态 
概念 关联 图 的 概念 选择 模型 人 9， 将 查询 与 概念 之 间 的 关系 表示 成 一 个 网 状 的 关联 图 ， 分 别 
包含 查询 与 概念 之 间 ， 以 及 概念 与 概念 之 间 的 相似 关系 , 同时 支持 查询 样 例 与 查询 文本 到 语 
义 概念 之 间 的 多 模 态 映射 。 通 过 流行 排序 算法 , 将 查询 与 概念 之 间 的 多 模 态 相似 性 在 整个 关 
联 图 中 进行 传播 ， 直 到 网 络 达到 稳 态 ， 从 而 选择 相似 度 最 大 的 前 N 个 概念 进行 视频 检索 。 
与 多 种 基于 星 型 结构 的 概念 视频 检索 方法 比较 , 该 方法 针对 查询 文本 比较 稀 玻 的 情况 具有 较 
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强 的 鲁 棒 性 ， 平 均 精 度 提高 了 近 20%。 
5.2.2 显 性 语义 概念 与 隐 含 语义 概念 融合 的 视频 检索 系统 


目前 基于 概念 的 视频 检索 需要 人 工 定义 一 个 有 限 的 概念 集 (本文 称 为 显 性 语义 )。 由 于 
该 概念 集 无 法 覆盖 整个 查询 语义 空间 , 在 实际 检索 过 程 中 会 出 现 零 概率 映射 和 不 可 扩展 等 问 
题 。 其 次 ， 学 习 概 念 检测 器 需要 人 工 标注 大 量 的 训练 数据 ， 费 时 费力 。 因 此 ， 研 究 人 员 开 始 
尝试 新 的 解决 办 法 ,试图 通过 概率 主题 模型 ,无 监督 地 从 视频 底层 特征 中 提取 隐 舍 主题 (本 
文 称 为 隐 含 语义 )。 我 们 提出 了 一 个 隐 舍 语义 和 显 性 语义 相 结 合 的 语义 视频 检索 框架 中 9， 通 
过 隐 含 狄 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 模型 从 底层 特征 描述 中 提取 具有 稳 
定性 的 特定 的 隐 含 语义 ; 同时 基于 上 述 概念 选择 算法 , 将 用 户 查询 映射 到 人 工 定义 的 显 性 语 
义 概念 集 , 融合 两 种 概念 来 实现 视频 检索 。 通过 隐 含 语义 的 数据 驱动 特性 来 弥补 显 性 语义 检 
索 中 的 零 概率 映射 问题 ,提高 检索 召回 率 , 同时 通过 查询 到 固定 显 性 语义 概念 集 的 准确 映射 ， 
保证 检索 精度 。 在 此 基础 上 ， 我 们 进一步 提出 了 基于 二 分 图 的 融合 算法 [SI， 根 据 查询 的 不 
同 ， 对 两 种 概念 进行 自 适 应 的 加 权 融 合 。 


T 5.3 基于 上 下 文 的 大 规模 网 络 视频 分 析 


我 们 在 基于 上 下 文 的 大 规模 网 络 视频 话题 自动 发 现 和 推荐 方面 取得 了 重要 进展 , 同时 在 
基于 多 种 上 下 文 信息 的 视频 检索 方面 取得 了 探索 性 的 成 果 。 下 面 将 分 别 介绍 这 两 个 内 容 。 


5.3.1 基于 轨迹 的 网 络 视频 话题 发 现 与 推荐 


根据 YouTube Report 2009P?!( iip, A 45% 的 用 户 登录 YouTube 并 没有 明确 的 检索 目 
标 ， 而 是 浏览 网 站 主动 推荐 的 “热点 视频 ”和 “热点 话题 ” 表明 这 种 不 需要 用 户 输入 查询 
的 视频 话题 自动 发 现 和 推荐 模式 越 来 越 受 到 网 络 用 户 的 欢迎 。 为 了 提高 网 络 视频 特征 的 可 靠 
性 , 我 们 提出 了 一 种 基于 全 局 轨迹 特征 的 网 络 视频 话题 检测 方法 5 。 首先, 将 每 个 标签 (tag) 
表示 为 时 间 轴 上 的 特征 轨迹 ， 仅 从 轨迹 中 提取 显著 点 (轨迹 中 的 顶点 ) 进行 聚 类 ,产生 发生 
在 该 时 间 点 的 事件 。 这 种 考虑 上 下 文 的 轨迹 特征 能 有 效 过 滤 噪 声 。 其 次 , 通过 计算 事件 之 间 
的 文本 相似 度 和 视觉 拷贝 检测 相似 度 ， 建 立 事件 发 展 链接 图 。 通 过 在 图 上 寻找 最 优 路 径 ， 提 
取 最 热门 的 前 N 个 话题 轨迹 。 该 方法 通过 考虑 全 局 的 链接 情况 来 判断 这 些 事 件 是 否 构成 一 
个 话题 ,因此 对 于 局 部 的 错误 链接 具有 较 强 的 鲁 棒 性 。 此 外 ， 上 述 这 种 基于 轨迹 的 话题 发 现 


(evolution-hot)。 通 常 这 类 话题 都 是 在 互联 网 上 具有 和 争议 性 的 内 容 , 在 一 段 时 间 内 被 反复 讨 
ie: 另 一 类 是 潜在 热点 话题 (potential-hot)， 这 类 话题 目前 仅 被 少数 人 和 群 关注 ， 但 有 不 断 发 
展 的 趋势 , 很 有 可 能 在 后 续 某 个 点 爆发 。 后 续 两 类 话题 是 传统 的 基于 内 容 的 方法 无 法 发 现 的 ， 
但 他 们 在 网 络 监 管 中 具 有 重要 意义 。 综合 上 述 方 法 , 我 们 实现 了 一 个 基于 轨迹 的 网 络 视频 话 
题 自动 发 现 和 展示 系统 54， 具 有 很 好 的 用 户 体验 。 


5.3.2 基于 社会 信息 的 网 络 视频 检索 


不 同 的 上 下 文 信息 之 间 具 有 一 定 的 关联 , 如 同一 个 作者 上 传 的 不 同 视频 更 有 可 能 被 相同 
的 用 户 评 论 。 而 目前 已 有 的 方法 大 都 局 限于 对 一 种 信息 的 研究 。 我 们 提出 了 一 种 基于 社区 结 
构 重 排序 的 视频 检索 方法 [ 史 ， 将 用 户 之 间 、 视 频 之 间 以 及 用 户 和 视频 之 间 的 多 种 链接 关系 
形式 化 为 一 个 异 构 的 上 下 文 网 络 ,通过 从 该 网 络 中 提取 隐 含 的 社区 结构 (community)， 挖 掘 
多 种 上 下 文 信息 之 间 稳 定 的 关联 模式 ， 实 现 基 于 社区 结构 的 视频 检索 结果 重 排序 。 在 包含 
82352 个 YouTube 视频 和 39555 个 用 户 的 异 构 网 络 中 进行 实验 比较 , 该 方法 的 检索 结果 均 优 
于 基于 纯 文本 和 纯 视 觉 的 方法 。 
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6 Bai 


基于 内 容 的 视频 检索 技术 经 历 了 近 十 年 的 发 展 , 尽 管 在 某 些 特 定 领域 , 如 视频 拷贝 检测 ， 


I 


取得 了 重要 进展 ， 但 目前 的 技术 水 平 还 不 能 满足 用 户 对 通用 视频 进行 基于 内 容 的 检索 需求 。 
中 的 技术 瓶颈 主要 是 语义 鸿沟 问题 。 因而 , 目前 商用 的 通用 视频 检索 主要 还 是 基于 文本 信 
县 检索 技术 。 但 是 ， 随 着 视频 网 站 的 普及 ,， 带 有 丰富 上 下 文 信息 的 网 络 视频 数据 已 成 为 视频 


检索 的 主要 对 象 。 这些 上 下 文 信息 为 我 们 绕 开 复杂 的 视频 内 容 本 身 ， 从 视频 所 处 的 上 下 文 环 
境 出 发 去 缩小 语义 鸿沟 提供 了 一 种 可 能 , 使 得 基于 上 下 文 信息 的 网 络 视频 分 析 和 检索 成 为 当 
今 网 络 多 媒体 时 代 的 研究 热点 。 同 时 , 我 们 也 相信 视频 检索 技术 和 网 络 视频 数据 的 结合 会 催 


生 更 加 丰富 的 网 络 多 媒体 应 用 。 
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